تشخیص بر خط دستنوشته فارسی مبتنی بر روش های یادگیری
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
- نویسنده محمدعلی بزرگ زاده
- استاد راهنما محمد رحمتی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1386
چکیده
در این پایان نامه، ضمن بررسی تاریخچه و تعدادی از روش های متداول تشخیص برخط حروف و کلمات، یک سیستم تشخیص برخط کلمات فارسی، طراحی و پیاده سازی شده است. ورودی این سیستم توسط قلم نوری دریافت می شود. اخیراً بعلت فراگیر شدن دستگاه های کامپیوتر جیبی و تلفن های همراه پیشرفته، اهمیت چنین سیستمی، بیش از پیش مورد توجه قرار گرفته است. در روش پیشنهادی ما، عمل شناسایی دستنوشته، از طریق جستجوی پرتو انجام می شود. این جستجو بر روی فرضیه هایی که با جلو رفتن گام های زمانی تکمیل می شوند، انجام می شود. امتیازدهی به این فرضیه ها از راه یافتن فاصله dtw بدنه و علایم حروف منتسب شده در فرضیه با الگوهای نمونه ای دسته مربوطه شان انجام می پذیرد. در جستجوی پرتو، هرس کردن فرضیه ها، بسیار اهمیت دارد. به همین منظور، لیست نسبتاً جامعی از 15 تکنیک مرتبط با هرس و کنترل رشد بی رویه فرضیه ها، ارایه شده است که می تواند مرجع مناسبی برای کارهای بعدی در این زمینه باشد. برخی از این تکنیک ها، با توجه به ویژگی های خاص زبان فارسی و برای اولین بار، مطرح شده اند. هرچند برخی از این تکنیک ها بطور پراکنده در مقالات مختلف مطرح شده اند.در مرحله آموزش و آماده سازی سیستم، الگوهای نمونه ای برای دسته های مختلف بدنه و علامت حروف فارسی یافت می شود. الگوهای نمونه در هر دسته، می بایست طوری انتخاب شود که شامل انواع رسم الخط های نمونه آن دسته باشد. برای جمع آوری داده های آموزشی، از 160 نفر، هر کدام 34 کلمه و 32 حرف مجزای الفبای فارسی جمع آوری شد. از انواع سطح تحصیلات از دانش آموز گرفته تا دکترا، از سنین مختلف و جنسیت مرد و زن با انواع رسم الخط های نگارشی در بین این 160 نفر بوده اند. تقطیع کلیه این کلمات در مرحله آموزش برای جداکردن تکه های علایم و حروف هر کلمه بصورت دستی انجام پذیرفته است. سپس الگوهای نمونه ای در هر دسته با یک روش خوشه بندی پایین به بالا انتخاب شده است.در خوشه بندی، برای معیار فاصله، از همان معیاری استفاده می شود که در مرحله شناسایی نیز برای امتیازدهی به فرضیه ها استفاده می شود یعنی فاصله dtw که تغییراتی در روش کلاسیک آن، بوجود آمده است. تعریف ارایه شده برای فاصله بین دو الگو در dtw کلاسیک، به تعداد تارها حساس است. چنین تعریف فاصله ای بطور ضمنی باعث خواهد شد که به سمت ترازبندی هایی با تعداد تارهای کمتر تمایل ایجاد شود. برای حل این مشکل، تغییر کوچکی در الگوریتم داده شد بطوریکه بجای مینیمم کردن مجموع فواصل نقاط متناظر، میانگین فواصل نقاط متناظر مینیمم شود.در این پایان نامه، تعریف فاصله بین عناصر دو دنباله، بصورت تابعی غیرخطی از اختلاف زاویه می باشد. براساس خروجی تابع غیرخطی استفاده شده، هنگامیکه اختلاف زاویه کم باشد (خصوصاً کمتر از 27 درجه)، فاصله، بسیار کم (در حدود 0.02) می باشد که منطقی است زیرا انتظار داریم با اختلافات اندک زاویه بین نقاط متوالی دو دستنوشته که امری طبیعی است با اغماض برخورد شود و وقتی اختلاف زاویه بین دو الگو زیاد می شود، رشد فاصله بین دو الگو، تشدید گردد. همچنین در این کار، بمنظور کاهش تعداد دسته ها، برای حروفی که بدنه مشترک دارند دسته های بدنه، با هم ادغام شده است. تا جایی که ما اطلاع داریم، ایده نگاه جداگانه به بدنه حروف در 4 حالت اول، وسط، آخر و مجزا و ادغام دسته های بدنه مشترک، برای کاهش تعداد دسته ها در کار دیگری، مستندسازی نشده است.با تنظیم بهینه پارامترها، به نرخ تشخیص صحیح 84.38 % و میانگین زمان اجرای 5/7 ثانیه برای تشخیص یک کلمه می رسیم. بعنوان داده های آزمایشی، از داده هایی که از 8 نفر جمع آوری شده بود استفاده کرده ایم. هر فرد، 20 کلمه را می نویسد که بصورت تصادفی از یک فرهنگ لغت شامل 11900 لغت انتخاب می شود. چنانچه میانگین زمان اجرا از اهمیت بالایی برخوردار باشد، می توان بازاء کاهش اندک در نرخ تشخیص، میانگین زمان اجرا را تا حد زیادی کاهش داد. با تغییر اندک در مقادیر پارامترها، میانگین زمان اجرا 5 ثانیه کاهش می یابد و به 5/2 ثانیه تقلیل پیدا می کند درحالیکه از نرخ تشخیص صحیح، کمتر از 3% کاسته می شود و نرخ تشخیص صحیح به 81.88% می رسد. درصورتیکه، میانگین زمان اجرا، 1 ثانیه دیگر کمتر شود و به 5/1 ثانیه برسد، نرخ تشخیص صحیح برابر با 78.75% خواهد بود. تنظیمات اخیر، احتمالاً برای یک سیستم تجاری با محدودیت زمان اجرا مناسب تر است.از مزایای روش ارایه شده، می توان به سادگی پیاده سازی، امکان تنظیم دقت در مقابل سرعت شناسایی، امکان تطبیق با نویسنده، عدم وجود شرایط محدودکننده در نگارش کلمات، استفاده از تکنیک های فراوان برای کنترل رشد فرضیه ها و عدم وابستگی حداکثر مدت زمان لازم برای شناسایی کلمه به حجم فرهنگ لغات اشاره نمود.
منابع مشابه
تشخیص دستنوشته برخط فارسی به کمک ویژگی های مبتنی بر شکل
در این تحقیق روشی برای تشخیص دستنوشته برخط فارسی مبتنی بر قطعه بندی زیر-کلمه به حروف و شناسایی حروف قطعه بندی شده با استفاده از مدل مخفی مارکوف گسسته ارائه شده است. تصویر متن تایپی یا دستنوشته به دلیل این که به صورت یکجا و بعد از نوشتن کامل آن در دسترس است برون خط نامیده می شود در حالی که دستنوشته دریافت شده توسط وسایل دیجیتال نظیر تبلت و تلفن همراه با صفحه لمسی به دلیل در دسترس بودن اطلاعات نو...
تأثیر نرمافزار چندرسانهای آموزشی مبتنی بر رویکرد ساخت گرایی بر میزان یادگیری واژه های پایهی فارسی
کتابهای آموزش زبان، چه در حوزهی آموزش زبان اول به کودکان و نوجوانان و چه در حوزهی آموزش زبان دوم، میتوانند بهعنوان ابزاری مؤثر در انتقال ارزشها، باورها، اعتقادات و دیدگاه مؤلفانشان به مسائل مختلف همچون مقولهی جنسیت، محسوب شوند. بنابراین، توجه به بازنماییِ متعادل و برابرِ مصادیق و نمودهای جنسیتی در طراحی منابع آموزشی میتواند مسألهای حائز اهمیت باشد. نظر به اهمیت این موضوع، پژوهش حاضر سعی...
متن کاملارائه ویژگیهای دیداری جدید در تصویر دستنوشته فارسی برای تشخیص روحیات افراد
در این مقاله، ویژگیهای دیداری جدیدی برای تشخیص روحیات افراد بر اساس دست نوشته فارسی پیشنهاد شده است. هدف این پژوهش این است که مشخصاتی که گرافولوژیستها در مورد مشخصات دست نوشته بیان می کنند را بتوان با کمک کامپیوتر براساس تصویر دست نوشته به طور خودکار استخراج کرد. بنابراین باید این مشخصات به صورت ویژگیهای دیداری قابل استخراج از تصویر بیان شوند. برای این منظور ابتدا تصاویر دست نوشته ها پیش پردازش...
متن کاملیادگیری مبتنی بر عملکرد، یادگیری مبتنی بر تمرین و چالش های آن در پرستاری
مقدمه: از پرستاران فارغ التحصیل انتظار می رود که علمی کار کنند و بر اساس دانش عمل نمایند. شاید امروزه روش هایی مانند شبیه سازی، ایفاء نقش و تأکید بر دانش نظری در آموزش پرستاری مؤثر باشند، ولی توسعه ی دانش حرفه ای وابسته به تمرین در بالین است. در این مقاله به چالش های این راهکارها می پردازیم. روش کار: مقاله ی حاضر یک پژوهش مروری است که با جستجوی منابع کتابخانه ای و مقالات موجود در بانک های ...
متن کاملمقایسه روش های یادگیری غیرنظارتی با تأکید بر تشخیص رخساره های کانالی تنگه هرمز
کانالها از انواع رخسارههای زمینشناسی میباشند که بهدلیل توانایی در ذخیره سیالات هیدروکربنی، در اکتشاف و توسعه میادین هیدروکربنی دارای اهمیت فراوانی میباشند. در سالهای اخیر، حجم دادههای لرزهای و همچنین تعداد نشانگرهای لرزه-ای ارائهشده افزایش چشمگیری داشته است که کار مفسرین را برای تفسیر خط به خط دادههای لرزهای با مشکل مواجه کرده-است. برای برطرفنمودن این مشکلات، الگوشناسی و استفاده از...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023